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摘 要 : 跨 语言 刘 窃 一 直 是 学 术 不 端 现象 发 生 的 重 灾区 ， 也 是 极 难 发 现 的 一 种 旭 窃 行为 。 跨 语言 有 窃 的 检测 和 识别 技 
术 是 目前 最 吾 待 发 展 的 技术 ， 也 是 反 旭 窃 抄袭 领域 的 最 大 技术 难点 。 在 总 结 和 分 析 了 单 语 絮 窃 检测 和 跨 语 言 剩 窃 检测 
国内 外 研究 现状 的 基础 上 ， 针 对 跨 语言 旭 窃 检测 存在 的 问题 ， 提 出 了 一 种 基于 指纹 融合 的 跨 语 言 旭 窃 检 测 技术 ， 并 将 
所 提出 的 技术 在 人 工 构建 的 旭 窃 集 上 进行 实验 验证 ， 对 实验 结果 进行 详细 分 析 和 对 比分 析 ， 验 证 了 该 技术 的 有 效 性 
关键 词 : 中 间 指 纹 ; 指纹 融合 ; 语义 消 歧 ; 跨 语言 有 窃 检测 
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Cross-language plagiarism detection technology based on fingerprint fusion 


Liu Gang, Zuo Quan, Yang Qianru 
(College of Computer Science & Technology, Harbin Engineering University, Harbin 150001, China) 


Abstract: Cross-language plagiarism has always been the hardest hit for academic misbehavior. It is also a behavior that is 
extremely difficult to spot. Cross-language plagiarism detection and identification technology is the most urgent technology that 
needed to be developed. It is also the biggest technical difficulty in the field of plagiarism. Based on the summary and analysis 


of current researches on the monolingual plagiarism detection and cross-language plagiarism detection, aiming at the existing 


problem of cross-language plagiarism detection, this paper proposes a cross-language plagiarism detection technology based on 
fingerprint fusion. This paper also carries out experimental verification on the plagiarism set of artificial building. Through 


analyzing and comparing the result of experiments, it can be concluded that the method is indeed effective. 
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一 权 的 一 种 维护 ， 更 是 对 知识 工作 者 的 尊重 。 惠 窃 检 测 已 经 成 为 
随 着 互联 网 技术 的 快速 发 展 ， 人 们 可 以 通过 各 种 途径 方便 ”一 个 研究 领域 ， 尤 其 是 在 学 术 领 域 ， 这 是 为 了 减少 侵权 现象 的 
的 获取 各 类 信息 。 然 而 ， 网 络 便利 生活 的 同时 也 使 得 任何 人 都 ”发 生 以 及 研究 旭 窃 行为 的 类 型 。 研 究 跨 语言 惠 窃 检测 技术 在 实 
可 以 轻易 的 拷贝 别人 的 内 容 作为 自己 的 内 容 ， 把 别人 的 既 有 观 际 系统 中 的 应 用 ， 不 仅 对 遇 制 学 术 不 端 行为 具有 重大 意义 ， 还 
点 当成 自己 的 创新 观点 ， 这 样 在 无 意 中 就 形成 了 旨 窃 的 行为 。 能 够 保障 原始 作者 的 权益 ， 有 利于 学 术 的 进步 。 

Alzahrani 55 A XE S83 HJ 2S7 4 73 E 2S, KEFA, BA 
窃 者 不 需要 花费 太 多 时 间 隐 藏 他 们 的 学 术 犯 罪行 为 ， 只 是 进行 
简单 的 复制 和 粘贴 文本 ， 另 一 类 是 智能 简 究 ， 即 璋 穷 者 试图 通 国外 对 于 跨 语言 简 守 检测 的 研究 也 才刚 刚 兴 起 ， 并 处 在 快 
过 把 别人 的 贡献 改变 成 自己 的 来 欺骗 读者 ， 一 般 用 翻译 、 替 换 ERRE. 2008 E, Alberto 等 信使 用 统计 模型 进行 跨 语 言 
同义词 等 各 种 智能 的 方式 来 试图 隐藏 、 混 淆 和 改变 原来 的 工作 ” 惠 窃 检测 ， 该 研究 依赖 于 由 平行 语料库 产生 的 统计 双语 词典 ， 
L31, MER rp RB zr OE RII SCR, 在 语言 形式 上 基本 没有 且 依 赖 于 双语 对 齐 算法 。2008 4E, Ceska 等 人 "提出 一 种 基 
可 比 性 ， 通 过 软件 自动 检测 很 困难 ， 目 前 这 方面 的 研究 开展 的 于 字 词 所 在 位 置 的 跨 语言 旭 究 检测 方法 MLPlag。 该 方法 采用 
比较 少 , 并 且 还 没有 公开 实用 的 软件 问世 。McCabe 的 一 项 研究 EuroWordNet 将 单词 转换 成 一 种 语言 的 独立 表示 ， 而 且 作者 建 
表明 ， 在 18000 名 学 生 中 ，40% 的 学 生 承 认 他 们 至 少 璋 窃 过 一 ” 立 了 两 个 多 语言 语料库 : JRC-EU 和 童话 故事 。2007 年 , Potthsh 
次 , 其 中 包括 跨 语言 璋 窃 外 。 不 仅 国 外 , 国内 也 有 类 似 的 事情 发 。 等 人 "引入 了 一 个 新 的 多 语言 检索 模型 一 一 跨 语 言 显 示 语 义 分 
生 ， 从 中 学 生 到 博士 ， 从 最 简单 的 照搬 照抄 到 替换 同义词 、 移 析 ， 用 来 分 析 跨 语言 的 相似 性 ， 其 分 别 在 多 语言 平行 语料库 


pros 


ki 


2 
J 


基金 项 目 : 黑龙 江 省 博士 后 科研 启动 金 资助 项 目 (LBH-Q15031); 黑龙 江 省 教育 科学 规划 课题 (GJC1215107) 
作者 简介 : 刘刚 〈1976-)， 男 ， 副 教授 ， ee el 9 能 信息 处 理 、 数 据 库 与 知识 库 、 社 会 网 络 (liugang@hrbeu.edu.cn); 左权 (1993-), 5, sil, 
主要 研究 方向 为 自然 语言 处 理 、 知 识 图 谱 ; Wis (1992-)， 女 ， 硕 士 ， 主 要 研究 方向 为 自然 语言 处 理 、 文 字 血 缘 . 


201805.00223v1 


chinaXiv 


录用 稿 


(JRC-Acquis) 和 多 语言 可 比较 语料库 (Wikipedia) 上 进行 了 实验 。 


2010 年 ， 他 们 又 将 此 方法 和 其 他 方法 


进行 了 比较 ， 发 现 使 用 字 


符 n-gram 能 达到 一 个 更 好 的 效果 , 然而 , 基于 字符 N-Grams 的 


不 适 | 


方法 


等 人 


确 等 问题 ， 提 出 了 
测 的 精确 度 。2010 4 
检测 的 新 方法 。 
分 类 器 训练 、 剩 穷 行为 分 析 和 后 
"提出 一 个 免费 的 可 使 / 
也 们 在 这 个 框架 上 探索 了 三 种 跨 语 言 相 似 性 评估 模型 的 适用 
基于 对 齐 的 跨 语言 相似 性 分 析 (CL-ASA)， 基 于 n-grams 的 跨 语 


文档 的 检索 、 
Alberto 等 人 


于 语法 无 关 对 的 语言 之 间 
为 了 解决 基于 机 器 翻译 的 跨 语言 列 穷 中 翻 
总 是 作为 两 个 单独 步骤 进行 处 理 的 问题 ， 
直接 把 这 两 步 整 合 为 一 步 的 方法 ， 以 提高 检 


，Pereirad 等 人 "提出 了 一 种 跨 语 言 旭 窍 


的 比较 ”2009 年 ,Pinto 


WR] 7 


AZEZ AIA] 


致 生成 的 指纹 过 多 ， 效 率 过 慢 ， 而 且 


使 精度 下 降 。 


直接 和 指纹 数 


以 及 其 中 累计 的 不 精 


该 方法 分 为 五 个 主要 阶段 ， 语 言 规范 化 、 候 选 


朗 处 理 。2013 Œ, 


的 跨 语言 璋 窍 检 测 框 架 ， 


言 简 窃 检 测 和 基于 机 器 翻译 的 简 窃 检测 (THMA)。 同 年 ，Marc 
等 人 "提出 了 一 种 基于 多 语言 的 语义 网 络 进行 


Franco-Salvador 


跨 语言 璋 穷 检 测 的 方法 。 


BabelNet， 它 是 


^N 


实体 ， 边 表示 它们 之 


在 2011 年 PAN H 


D 
pb 德语 


THB 


该 方法 使 用 的 多 语言 语义 网 络 为 
， 其 节点 表示 多 语言 的 概念 和 命名 


[| 


间 的 语义 关系 。 为 了 验证 
EXE RUE 8-8 5 3 PRSE EXE 


其 有 效 性 ， 他 们 


行 实验 ， 实 验 结果 表明 ， 基 于 多 语言 的 语义 网 络 使 语言 独立 起 


K ENDEMAN 


提出 使 用 
进行 检测 。 
为 评价 标准 。 


EH eR CE 


于 其 他 方法 。2014 4E, Aljohani 等 人 
Winnowing $13:59] I 3v [E] VERUS YS ZZ. [8] E EE E d 28] O3 
该 算法 在 维基 百科 上 进行 ， 使 用 精准 率 和 召 匠 


率 作 


Ey 


是 刚刚 起 步 ， 目 前 正 处 于 快速 发 展 


BER. m 


: — 
语 -英语 等 等 ， 


国内 对 
但 由 于 


这 方 


Rr ES 
中 文 


国外 有 阿拉 伯 语 -英语 ， 德 
ARRES NE E I E 


究 很 少 。 
的 特殊 性 ， 


[E] 


术 有 些 并 不 适 ) 


IFE 


内 。 


有 一 词 多 义 的 现象 ， 


于 词语 往往 


和 中 文 相 比较 语言 差异 尤其 明显 ， 所 以 从 英文 文献 中 直接 翻译 


过 来 形成 中 文 这 种 抄袭 很 难 检测 出 来 。 针 对 这 个 问题 ， 本 文 针 
对 跨 语言 旭 穷 检测 技术 进行 了 研究 ， 以 达到 跨 语 言 文本 列 窃 检 
测 的 目的 。 

2 ”潜在 剥 窃 文档 集 生成 

2.1 数字 指纹 的 相关 概念 


数字 指纹 是 把 文本 中 的 菜 些 特征 通过 某 种 选取 策略 进行 


Hash 计算 而 生成 的 数字 编码 09。 如 果 直 接 对 原文 本 进行 字符 中 


的 匹配 会 存在 很 多 问题 ， 


够 。 


比如 ， 存 储 空间 大 、 效 率 低 、 精 度 不 


因此 需要 把 文本 映射 成 指纹 进行 简 穷 检测。 


为 了 评价 文本 惠 窃 程度 , 需要 计算 两 个 文本 指纹 的 相似 度 ， 


因为 文本 所 对 应 的 指纹 应 该 能 够 很 好 的 表示 该 文本 。 根 据 数字 
指纹 的 相关 定义 得 知 ， 生 成 指纹 时 需要 考虑 以 下 几 点 : 文本 块 
粒度 、 指 纹 的 选取 策略 、 文 本 数量 以 及 函数 的 选择 问题 31。 


文本 粒度 是 指 |) 
选择 最 后 会 对 列 


DE: 


度 是 整个 文本 ， 


TTA 


Æ. 


储 空间 大 了 。 


刘 刚 等 : 


Chin 
一 种 基于 指纹 融合 的 


窃 检测 不 出 来 ， 最 小 的 是 一 个 字符 ， 


ee IE 
aX ERR. 


这 样 容易 导 


[会 产生 很 多 错误 的 匹配 ， 


前 纹 的 选取 策略 有 全 指纹 选取 、` 基 于 频率 的 选取 、 


量 相关 ， 
[LJ 


2.2 基于 WordNet 的 中 间 


WordNet 是 上 


机 器 可 读 记 


指纹 编码 


基于 结构 的 选取 和 基于 位 置 的 选取 。 而 关于 文本 块 的 选择 问题 
指纹 数量 太 多 准确 度 高 ， 但 计算 量 和 存 
比 需要 选择 合适 的 指纹 数量 进行 计算 。 


Princeton 大 学 建立 的 一 种 基于 认 知 语言 学 的 
o WordNet 描述 的 对 象 包 括 英 语 


合 词 


(compound)、 短 语 动 词 (phrasal verb)、 搭 配 词 (collocation)、 成 语 


(idiomatic) 和 单词 (word)。 则 
中 没有 比 词 更 小 的 结构 单 


既 和 传统 的 词 


类 型 词典 特征 


射 为 唯一 整数 的 过 程 。 由 于 名 词 的 对 


明确 ， 一 篇 文 
有 最 为 清晰 的 
WordNet 中 的 
以 (entity.n.01) 
的 关系 ， 词 义 


是 以 同义词 集 来 表示 的 。WordNet 4 


中 , 最 基本 的 单位 是 单 


词 ，WordNet 


立 ， 也 没有 比 词 更 大 的 组 织 单位 。 它 


tAE, 
的 词典 。 


章 的 大 部 分 


也 和 同义词 

指纹 的 建立 过 程 就 是 把 选取 的 字符 串 映 
[应 关系 在 各 种 语言 中 最 为 
内 容 也 为 名 词 ， 而 名 词 在 WordNet 中 


^u. exu 


pa 
口 


了 这 两 种 


树 型 结构 ， 基 


Ai e UBER 


为 根 的 树 的 下 面 。 
关系 其 是 最 基本 构件 之 一 ， 而 词 


此 本 算法 只 对 名 词 进行 指纹 编码 。 

结构 组 织 的 ， 所 有 的 名 词 都 在 一 棵 
语义 关系 是 WordNet 中 最 重要 
义 在 WordNet 中 
的 树 型 结构 是 以 同义词 集 


为 节点 的 ， 每 个 节点 代表 一 个 语义 或 是 概念 。WordNet 中 的 上 


下 位 关系 就 是 父 节 点 和 子 节点 的 关系 ， 


(hypernyms)， 


叶 节 点 词义 越 来 越 


父 节点 即 上 位 词 


般 比 该 节点 表示 的 意思 更 抽象 ， 即 从 根 节 点 到 


k 体 ， 越 来 越 专业 。 图 


中 名 词 的 树 型 结构 的 一 部 分 。 


实体 7N 
/ 即 已 知 或 可 被 感知 或 可 V 
| 被 推断 有 它 自己 独特 存 | 
、 在 方式 的 生命 体 和 非 生 / 
AN. 合体 AN 


1 显示 了 WordNet2.1 


pe 
luxe ra 本 A" x 
A / 抽象 实体 N 六 1 事物 b 
( 物理 实体 | | 只 能 通过 抽象 存在 的 “| | 未 被 具体 命名 的 实 | 
有 物质 存在 的 实体 M \ 实体 J N 体 / 
N / Ny 3* NS pA 
4 b" "S" " gae US Sa 
pee a y bs S ps 
PS 、 /物理 对 象 ”、 / 抽象 概念 \ 
/物体 N 可 触 知 的 实际 |。 从 具体 实例 中 提取 共同 特 | 
ge | NM, Uem 7 Mo 。 征 形成 的 一 般 概念 / 
- MM. "a J 
O 内容, RN 
人 会 产生 影响 或 带 来 结果 的 任何 实 
NE 体 P4 
图 1 WordNet 中 名 词 同义词 集 园 于 结构 示例 


由 于 很 多 


语言 都 有 


rn 


定 程度 上 路 越 了 语言 的 


成 数字 指纹 的 文本 长 度 。 文 本 粒度 的 


果 的 精度 产生 很 大 的 影响 。 最 大 的 指纹 粒 
这 样 只 能 检测 出 原封 不 动 复制 粘贴 的 文本 ， 对 


过 茶 


只 有 通 


WordNet3.0 版 本 中 同义词 全 


应 到 一 起 时 ,每 个 同义词 


种 自然 语言 


EL E 
EDAR 


个 与 语言 无 关 


英文 WordNet 对 应 的 版 本 ， 这 就 在 一 
屏障 ， 因 为 当 将 不 同 语言 的 WordNet 对 


的 语义 节点 。 


能 恰当 的 表示 这 些 语义 。 在 


才 


kt 有 117659 个 ， 其 中 名 词 的 同 义 


201805.00223v1 


chinaXiv 


录用 稿 


词 集 为 82115 个 ， 占 了 同义词 集 的 80% 左 右 。 本 文 将 所 有 的 名 
词 同 义 词 集 进 行 指纹 编码 ， 其 产生 的 指纹 就 是 独立 于 语言 的 一 
个 语义 中 间 层 ， 所 以 称 为 中 间 指 纹 。 考 虑 到 后 续 需 要 对 名 词 进 
行 语义 消 歧 以 及 指纹 提取 ， 同 时 也 为 了 提高 效率 ， 算 法 1 使 用 
以 下 思想 对 WordNet 中 的 名 词 同 义 词 集 进行 指纹 编码 : 

a) 子 节点 的 编码 以 父 节 点 的 编码 为 前 级 ; 

bo 用 位 二 进 制 编码 第 i 层 ， 其 中 
levelbit, = levelm, +1 > levelm, 是 第 i 层 的 最 大 子 节点 数 ; 


TL 
& 


levelbit, 


naXiv 合 


"A Nd 
om, F: TRAE RURET E ENAR 


将 icr [x][2] 左 对 齐 ， 扩 展 为 117 位 ， 不 足 的 位 用 8 补 齐 
2.3 文本 预 处 理 
由 于 是 在 名 词 的 基础 上 进行 的 散 列 ， 
行 预 处 理 ， 提 取出 本 文 所 需要 的 名 词 。 
采用 ICTCLAS 对 中 文 文本 进行 分 词 和 词性 标注 ， 然 后 提 
取出 其 中 的 名 词 存放 在 列表 里 。 中 科 院 的 汉语 词法 分 析 系 统 
api a dr 
以 上 ， 并 且 在 国内 973 专家 组 组 织 的 测评 中 获得 第 一 名 。 


需要 对 中 英文 文本 进 


c) 从 最 高 位 开始 编码 ， 用 1 到 levelbit, 位 二 进 制 编码 第 
Z, H levelbit 到 levelbit, + levelbit, 位 二 进 制 编码 第 二 层 ， 以 此 


PS 


2 是 中 间 指 纹 编码 算法 的 一 个 图 解 。 
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E Neo! au bud 


图 2 中 间 指 纹 编码 示例 图 


中 间 指 纹 编码 算法 如 下 : 
算法 1 中 间 指 纹 编码 
输入 : 预 处 理 完 的 文本 ; 


输出 : WordNet 中 的 同义词 集 经 过 编码 后 的 中 间 指 纹 。 


定义 一 个 空 的 队列 queue : 
往 队列 里 添加 WordNet 名 词 的 树 型 结构 的 根 节点 ; 


定义 一 个 字典 dict = (queuel0]:[1]) : 


往 字典 的 第 一 项 对 应 的 valuwe 中 添加 Jen(queue[0].hyponynms) // hyponynms 是 下 位 词 ， 


往 字典 的 第 一 项 对 应 的 vague 中 再 添加 1 对 应 的 二 进 制 形式 ; 

每 层 编码 所 需 的 二 进 制 位 数 Jevelbit = [1,2,4,6,9,7,8,9,9,9,9,7,7,5,5,6,5,4,4,1] 
while ( queue 的 长 度 >8) { 

count —1:* 


node — queue.pop(0) : 


for node.hyponynms() 中 的 每 一 个 子 节点 child t 

将 child 添加 至 队列 queue : 

层 数 level 73 dict [node][0] ™ 1: 

level 层 对 应 的 编码 长 度 coger en 为 levelbit [level —1] : 

level. 层 对 应 的 编码 Coder en 为 dict [node][2] 加 上 codeLen 长 的 count 的 二 进 制 表示 ; 
dict [child ] =[level,len(child.hyponynms(),codestr 

} 

count — count +1; 


) 
for dict 中 的 每 一 项 x 


基于 层 著 的 隐 马 尔 可 夫 模 型 (cascaded hidden Markov model, 
CHMM) 的 。 本 文采 用 斯 坦 福 自然 语言 处 理 小 组 开发 的 词性 标注 
工具 Stanford log-linear part-of-speech tagger 对 英文 文本 进行 词 
性 标注 和 词 干 化 。 该 工 个 双向 依赖 网 络 对 英文 文本 进 
行 标记 ， 并 且 在 多 个 连续 的 单词 之 间 考 虑 了 词汇 关系 ， 有 效 地 
利用 了 线性 模型 中 的 先 验 条 件 ， 词 性 标注 的 准确 率 达 到 了 
97.2496. 
2.44 TRER OGK 

经 过 文本 预 处 理 之 后 ， 可 以 得 到 名 词 序 列 ， 由 于 存在 一 词 
多 义 的 现象 ， 需 要 确定 这 个 词 在 上 下 文中 的 意思 。 虽 然 有 些 文 
本 预 处 理 考 虑 到 了 语义 消 靶 ， 但 是 只 能 在 单 语 的 情况 下 知道 词 
在 上 下 文 的 意思 ， 对 于 跨 语 言 则 无 可 奈何 。 本 文采 用 基于 中 间 
指纹 的 与 语义 无 关 的 消 歧 算 法 对 名 词 序列 进 行 消 歧 一 一 主要 是 


通过 


利用 概念 相关 性 原理 在 消 歧 窗口 中 包含 的 所 有 词 的 义 项 中 选取 
多 个 ， 通 过 计算 语义 密度 来 进行 消 上 发。 消 歧 的 结果 是 语义 密度 


最 大 的 子 树 包含 的 义 项 。 假 设 消 此 窗口 的 大 小 是 19， 窗 口中 都 
是 提取 出 的 名 词 ， 而 中 间 的 词 就 是 被 消 歧 的 词 ， 比 如 : 


UNE Bye digi] 1 是 被 消 歧 的 词 ， 每 次 确定 一 个 词 


的 义 项 后 ， 窗 口 向 后 移动 一 个 ， 此 时 为 被 消 野 的 词 ， 以 此 类 
H, 直到 所 有 的 名 词 都 确定 义 项 。 对 于 窗口 长 度 为 31+1 的 R: 


frotal fa r r L ， Far21- 19 5n] d POH Bii ie Tau? TE 


T-l-L'acl*^acll* 


算法 的 主要 步骤 如 下 : 


a) 将 包含 RR 中 每 个 ;的 同义词 集 Synset(.) 2 (s.n, L j 合 


为 一 个 大 的 候选 集 C = Umad ; 


i-a 


日 对 候选 集 c 中 的 所 有 同义词 集 按照 它们 对 应 的 中 间 指 纹 
排序 ; 
c) t c 中 任意 几 个 同义词 集 的 语义 密度 ， 
果 就 是 语义 密度 最 大 的 子 树 下 的 同义词 集 ; 
d) 往 后 移动 一 个 窗口 ， 重 复 上 述 步骤， 直到 所 有 名 词 都 被 
iiit. 
基于 中 间 指纹 的 语义 消 歧 算 如 下 ; 


算法 2 基于 中 间 指 纹 的 语义 消 歧 


[uy 


;的 消 歧 结 


输入 : 文本 段落 提取 出 的 名 词 序列 Jjgpnon ; 


输出 经 过 消 歧 之 后 所 确定 的 义 项 的 指纹 序列 senseen 。 
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定义 变量 4-0; 


129: 


将 序列 senseen YU: 


while Ca 小 于 名 词 序列 listnon 的 长 度 ){ 


设置 临时 变量 最 大 语义 密度 MyaxD —0 : 


设置 临时 列表 及 为 空 ， 


yi Jio Taob Ta 
L 


HERNELMNI 


Das Var2l 


| 即 名 词 序 列 的 第 q 


a+2l 
设置 候选 集 C= Usynser(r)' 


对 候选 集 C 


按照 中 间 指 纹 进行 排序 ; 


设置 临时 变量 p 为 候选 集 C 的 长 度 ; 


for (i 
for( 


=0;i< p;it+ +){ 


j=itl;j<p;j++){ 
RE C= {nL un): 


if C' 和 Synset (r, 


到 第 a Lo] 元 素 赋值 给 列表 R: 


) 的 交集 的 数目 等 于 1 或 者 等 于 2{ 


将 d(C ? 的 语义 密度 赋值 给 


if (p 大 于 最 大 语义 密度 MaxD ){ 


MaxD-D: 


将 ct 和 Synset (n) m 


M4 if 结束 


DES 


}// 内 层 foy 循环 结束 


}// 外 层 for 循环 结束 


将 T 添加 进 序列 senseen : 


a-acl: 


V while 循环 结 


W 


返回 指纹 序列 senseen 


2.5 指纹 选取 


指纹 的 选 


取 对 后 续 相 似 度 的 检测 和 


交集 赋值 给 了 


到 窃 检 测 的 精准 度 有 直 


接 的 影响 ， 正 确 的 指纹 选取 能 充分 的 表示 文档 本 身 ， 反 之 ， 不 


正确 的 指纹 选 
简单 的 ， 同 时 
对 于 大 文件 ， 
指纹 的 位 置 ， 
指纹 选取 考虑 


EA 


取 与 原文 档 会 有 很 大 的 仿 


全 指纹 的 选取 是 最 


^p. o 


在 检测 准确 度 和 性 能 上 较 
效率 就 有 了 明显 的 下 降 。 
对 于 打 乱 顺序 的 如 窃 ， 准 
的 是 论文 的 篇 章 结 构 ， 对 


构 不 一 样 的 各 
wai 
一 些 频 率 较 

可 Fí Ls 1 
选取 合 


4E 


适 的 名 


的 名 词 很 常用 ， 


窃 检测 效果 不 理想 。 基 于 
指纹 ， 过 滤 一 些 宽泛 的 、 


其 他 选取 策略 较 高 ， 但 
基于 位 置 的 选取 依赖 于 
确 度 不 高 。 基 于 结构 的 
TERRE DAE A 


频率 的 指纹 选取 就 是 依 


inaXiv 


刘 刚 等 : _ A: 


信件 其 UM 


构 的 深度 越 小 通常 上 共有 越 高 的 全 局 频率 09。 这 里 的 全 局 频率 是 
在 指 茶 个 语义 在 语言 中 出 现 的 频率 ， 可 以 当做 是 在 无 穷 大 的 语 
料 库 上 训练 得 到 的 。 并 且 根据 平均 语义 和 深度 的 关系 ， 前 四 层 
全 局 频率 随 深度 增加 而 增加 ， 从 第 五 层 到 第 二 十 层 全 局 频率 随 
深度 增加 而 减少 ， 由 于 深度 小 的 节点 语义 宽泛 区 分 能 力 不 强 ， 


因此 本 文 把 这 些 特征 值 过 滤 掉 ， 
滤 掉 ， 剩 下 的 就 是 文档 所 对 应 的 指纹 。 
kk 体 指纹 选取 算法 如 下 ; 


算法 3 指纹 选取 


输入 : 中 文 文本 D; XXR pD': 


输出 : 中 文 指纹 finger] ， 英 文 指 纹 finger2 . 


对 中 文 文本 D 进行 段落 划分 ， 形 成 小 的 文档 d, HERE S: 


对 英文 文本 D' 进行 段落 划分 ， 形 成 小 的 文档 d' ， 并 存储 在 S, ， 
for wika S, 中 的 每 一 个 段落 d { 


对 d 进行 分 词 和 词性 标注 ， 存 储 在 序列 listech t: 


for listch 中 的 每 一 个 项 { 
If 该 项 的 词性 是 名 词 
添加 进 序列 listnonch +: 
}/ for 循环 结束 
}// for 循环 结束 


for 段落 集合 9。 中 的 每 一 个 段落 d'1 


对 d' 进行 分 词 和 词性 标注 ， 并 进行 词 干 化 ， 存 储 在 序列 listen 中 ; 


for listen 中 的 每 一 个 项 { 

if 该 项 的 词性 是 名 词 

添加 进 序列 listnonen +: 

V/ for 循环 结束 
V/ for 循环 结束 
调用 算法 2 对 [istnonch ，listnonen ttis 
for listnonch 每 一 项 { 

if 该 项 的 低 100 位 不 全 为 @ 
就 把 该 添加 进 fingerl : 

V/ for 循环 结束 


对 于 listnonen 也 是 执行 一 样 的 操作 ， 最 后 形成 finger2 ; 


返回 中 文 指纹 finger] ， 英 文 指纹 finger2 ; 


即 把 低 100 位 全 为 0 的 指纹 过 


i 一般 使 用 开源 的 翻译 软件 


PE n5 9j 
己 的 论文 中 。 


粘贴 到 自 


频率 过 高 的 指纹 ， 而 选 


合适 的 指纹 。 由 于 本 文 是 


提取 出 文本 的 名 词 作为 


不 
词 指 作为 文档 的 指纹 。 


本 文采 用 


了 一 个 变通 的 方法 来 


WordNet 中 的 
宽泛 ， 下 层 
中 的 深度 作为 过 


节点 的 语义 比 上 层 


名 词 同 义 词 集 树 型 结构 ， 
体 。 采 


代表 性 


| 因此 需要 过 滤 掉 ， 


= 


i 


解决 这 个 问题 。 对 于 
上 层 节点 的 语义 比 下 层 
用 同义词 集 在 树 型 结构 


寸 滤 特 人 


征集 的 条 件 。 这 是 


忆 为 在 各 种 语言 中 ， 人 


们 使 用 各 个 名 词 的 语义 的 总 体 频 率 是 大 致 一 样 的 ， 只 是 具体 表 


现 的 形式 不 同 


而 已 。 还 基 


为 各 种 名 词 的 语 


吾 义 在 WordNet 树 型 结 


,对 文本 i 


行 翻译 后 ， 
而 对 跨 语 言 璋 窍 进行 检 测 时 不 可 能 对 所 


有 的 源 文本 都 进行 详细 的 分 析 , 因此 需要 先 对 源 文本 进行 检索 ， 
检索 出 可 能 是 科 窃 的 段落 之 后 ， 再 进行 详细 分 析 。 


至 此 已 经 介绍 了 跨 语 言 璋 窃 检 测 的 前 


AD WERA 
档 集 的 提取 ， 其 中 最 核心 的 是 跨 语 言 文本 相似 度 的 计算 。 图 


3 


3 ” 剩 窃 检测 结果 详细 认定 
3.1 SimWin 指纹 融合 算法 


跨 语 言 科 窍 一 般 是 翻译 过 后 稍 加 修改 而 
确定 为 慢 窃 ， 需 要 更 加 细 化 的 分 析 和 计算 。 


者 述 了 跨 语 言 指纹 相似 度 计 算 的 全 部 流程 ,这 里 以 9 


多 成 的 ， 如 何 


由 于 语言 之 间 


英文 为 例 。 


更 加 
的 结 
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构 和 表述 


精确 到 十 几 个 字 或 者 连续 
翻译 ， 


位 进行 


ij 不同, 本文 无 法 精确 到 词 或 者 像 单 语言 简 窃 检测 一 样 ， 
的 词组 ， 而 一 般 覃 窍 会 是 以 句子 为 单 


从 而 进行 跨 语言 到 窃 。 因 此 本 文 以 句子 作为 最 小 
单元 进行 跨 语 言 到 窍 检测 的 详细 分 析 。 
中 文 段落 AXE 
— 4 
y 
中 文 分 词 及 英文 分 词 及 词性 
词性 标注 等 标注 、 词性 还 原 
ZR 名 词 序列 
vy T1 
中 间 指 纹 编码 与 消 歧 X 
m 
中 间 指纹 | | 基于 中 间 指 IR). 
编码 算法 | | Ak = 
=; | 
特征 序列 特征 序列 
指纹 选取 
Y Y 
| 中 文 指纹 英文 指纹 


SimHash 算法 7 是 一 种 局 部 敏感 的 


算法 不 能 通 
法 可 以 通 


相似 度 计算 


过 指纹 衡量 出 两 个 文本 的 相似 程度 ， 
过 指纹 之 间 的 汉 明 昌 


图 3 语言 指纹 相似 度 计 算 流 程 图 


间 纹 算法 。 传 统 的 指纹 
而 SimHash 算 
E 离 来 衡量 两 个 文本 的 相似 程度 。 


SimHash 5 


法 党 TH 首 用 于 海量 


的 文本 相似 度 计算 ， 由 于 SimHash 的 


核心 思想 是 降低 


IRE, 3t H 把 个 高 维 的 特征 


向 量 哈 希 成 一 个 


固定 长 度 的 指纹 ， 


从 而 通过 比较 指纹 计算 文本 的 相似 度 。 但 是 


其 效率 对 应 的 代价 是 精度 的 下 降 。Winnowing 算法 的 去 噪 功能 
很 好 ， 通 过 滑动 窗口 的 方式 来 提取 文本 的 特征 序列 。 它 的 优点 
是 在 文本 有 小 的 变动 时 ， 即 哈 希 序列 有 稍微 的 改变 时 ， 所 提取 
的 文本 特征 序列 基本 不 变 ， 而 且 在 文本 有 小 的 变动 时 ， 窗 口 大 
小 对 最 后 的 检测 结果 基本 没有 影响 ， 这 样 就 增强 了 算法 的 鲁 棒 


性 。 但 是 其 有 特征 指纹 数量 大多、 选取 指纹 不 全 等 缺点 。 


本 文 


综合 考虑 SimHash 算法 和 Winnowing 算法 的 优 缺 点 ,以 及 两 种 


算法 提取 指纹 的 俱 


I 重点 也 有 所 不 同 ， 把 两 种 算法 融合 在 一 起 ， 


提出 了 SimWin 算法 , 以 便 更 准确 的 来 计算 句子 之 间 的 相似 度 。 


本 文采 | 


S(A,B)=a*¥(1 


如 下 公式 进行 指纹 融合 。 
H(A,B) 


)*tü-a)*S (A, B) 


winnowing 


Feb. H(AB) 是 句子 A 和 句子 p KIDUR, f SimHash 


x) 网 


算法 中 产生 


指纹 的 位 数 ，$ 


winowi 


1— ao; 是 Winnowing 算法 结果 的 


Winnowing 算法 计算 得 出 的 相似 度 , w 是 SimHash 算法 的 权重 
体 的 取 多 少 可 以 更 加 准 


aXiv 合 
3 to 


(A.B) £f) T A 


权重 ， 一 


确 的 衡量 两 个 句子 的 相似 度 ， 


EE 
rf 女 


根据 上 述 
本 进行 分 句 ; 


Winnowing 算法 计算 相应 两 个 句子 之 间 的 相似 度 ; 
合 公式 ， 计 算 两 个 句子 之 间 


纹 融 
算法 如 下 所 示 : 

算法 4 Simwin 指纹 融合 

输入 ， 文 本 段落 有 ， 文 本 段落 py s 
输出 :经 过 指纹 融合 后 两 两 句子 之 间 的 相似 度 
对 文本 段 洲 py 进行 分 句 ， 形 成 句子 序列 g 


对 文本 段落 万 ' 进行 分 句 ， 形 成 句子 序列 S: 
2 


for 句子 序列 s 中 的 每 一 项 S{ 


调用 SimHash 算法 形成 其 指 f -€ 纹 ; 


体 步骤 如 下 : 


的 最 终 相 似 度 。 


Sim * 


使 用 Winnowing 算法 形成 其 指纹 Jovis i 


fors, 中 的 每 一 个 句子 8'{ 


调用 SimHash 算法 形成 其 指纹 p ，， 


使 用 Winnowing 算法 形成 其 指纹 f. 


计算 Sintah m pm 
应 用 公式 R= 
应 用 S(A, B) 公式 计算 g 和 


FEX Sim 中 ; 


}// 内 层 for 循环 结束 
}// 外 层 for 循环 结束 


对 Sim 进行 排序 ; 


返回 Sim ; 


F(A) F(B) : ， 
i NU HR F mH 
F(A)UF(B) D m 


g 


之 间 的 汉 明 距离 ; 


s 融合 后 的 相似 度 ps 


Chin (ER I| 
E $ ž W), 5: 一 种 基于 指纹 融合 的 器 Bis £5 4 JU 3L. 


和 句子 B 通过 


通过 实验 来 决定 。 
XR, SimWin 算法 具 
接着 按照 算法 计算 句子 之 间 的 汉 明 距离 ， 按 照 


首先 对 所 有 文 


最 后 按照 指 
体 指纹 融合 


之 间 的 相似 度 


相对 于 只 用 单一 的 指纹 算法 来 计算 句子 之 间 的 相似 度 ， 本 
文 提 出 的 基于 指纹 融合 的 句子 相似 度 计算 方法 综合 


M 


算法 的 特性 ， 
的 结果 更 加 准 


将 两 者 最 终 的 
确 ， 也 提 


ATARE E 


结果 很 好 的 融合 在 一 


了 两 种 指纹 
起 ， 使 得 最 终 


4 $E SI gi 


过 程 图 。 
32 IHARRA 


通过 句子 之 间 的 相似 度 计算 以 及 通过 


阅 值 的 过 


检测 详细 分 析 


到 可 疑 文本 中 的 句子 是 否 简 窃 了 源 文档 中 的 句子 。 


之 所 以 采用 


句子 作为 科 窍 检测 的 基本 单位 ， 


是 因为 语言 


与 语言 


顺序 的 不 同 ， 没 办 法 像 单 语 


样 进行 确定 到 字 的 简 窃 检测 ， 
句子 作为 一 个 基本 的 单元 ， 可 以 作为 最 小 的 检测 


之 间 的 结构 
而 


单位 。 但 是 会 


ULL SR 
果 中 应 该 只 出 现 


个 检测 


EE HJ Te 这 


> 


子 付 ， 


的 两 个 句子 ， 面 对 
结果 而 不 是 两 个 ， 如 图 
图 5 表示 文档 A 的 分 析 结 果 ， 
个 句子 都 是 从 文本 B 简 窃 而 来 的 。 第 一 个 和 
窃 在 可 疑 文本 中 从 第 1000 个 字符 的 位 置 开 


XPH 


检测 最 终 的 结 


分 析 方 法 检测 


始 ， 


相应 的 源 文 本 B 中 从 第 3000 个 字符 的 位 置 开 


5 所 示 。 
到 可 疑 文本 两 


ag y 500 个 


始 ， 也 有 
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500 个 字符 的 长 度 。 从 图 5 可 以 看 出 ， 第 二 次 检测 表明 ， 有 一 。 ”文档 中 最 大 长 度 的 段落 ), 即 保证 可 疑 文本 中 的 同一 段落 有 不 超 


个 科 窃 正好 在 前 一 次 检测 出 的 简 窍 句子 后 面 ， 因 此 ， 需 要 把 这 it—4r RI BER] 53] 93 2 US 
两 个 检测 连 成 一 个 ， 而 不 是 报告 两 个 简 窍 。 按照 上 述 步 又 进行 各 窃 结 果 合 并 ， 使 得 最 终 的 结果 整合 到 
文本 合并 后 的 结果 如 图 6 所 示 。 一 起 ， 而 不 是 分 散 的 旭 窃 检测 的 结果 
( 开始 D 4 ”实验 结果 分 析 


跨 语 言 到 窃 检测 实验 主要 以 简体 中 文 和 英文 为 实验 对 象 ， 
2 TRU AB EB PEGA a oE, AR XOBOSE MA Hn ESL AT 
UM 网 上 下 载 的 硕 博士 论文 中 英文 摘要 作为 基础 语 料 , 还 选取 了 10 
篇 英文 论文 通过 Google 翻译 成 中 文 , 随后 通过 人 工 添 加 、 删除 
EN ^8 lE JE Td Sc hc Hr RESI EE dinh, porc 5000 
CERT 篇 ， 英 文 文本 5000 篇 ， 存 储 格式 都 是 (* txb。 通 过 在 这 10000 
ay o 篇 文本 上 进行 实验 获得 相关 的 实验 数据 ， 并 在 此 基础 上 对 实验 
icu 结果 进行 分 析 。 本 文 的 实验 主要 分 为 三 个 阶段 ， 分 别 为 ; 
vomer E eror a) 详 细 分 析 WordNet 的 名 词 树 型 结构 ， 通 过 中 间 指 纹 编码 
" s 算法 把 名 词 树 状 结构 中 的 同义词 节点 编码 成 指纹 ， 通 过 自然 语 
Mi ELI 言 处 理 技术 ， 对 中 英文 文本 进行 预 处 理 提取 其 名 词 序列 。 
LH E DET d: ESOTERIESE, I 
i 策略 提取 出 段落 的 中 英文 指纹 , 利用 Dice 系数 对 中 英文 指纹 进 
iiie: 行 相似 度 计算 ， 在 中 英文 相似 度 计算 的 结果 中 通过 阔 值 选取 出 
LE 
c) 通 过 Google API 把 中 文 文本 翻译 成 其 对 应 的 英文 文本 ， 
接着 对 文本 进行 分 句 ， 然 后 按照 SinWin 算法 计算 句子 之 间 的 
相似 度 ， 通 过 阔 值 选取 旨 窗 句子， 最 后 通过 旨 窃 片段 合并 形成 
最 后 的 到 窍 检测 结果 。 通 过 语义 消 歧 和 指纹 选取 之 后 ， 己 经 形 
成 中 英文 文本 所 对 应 的 指纹 , 然后 利用 Dice 系数 计算 中 英文 文 
本 之 间 的 相似 度 。 
4.1 ”中间 指纹 编码 
本 文 实 验 所 使 用 的 英文 WordNet 为 PrincetonWordNet 3.0, 
使 用 的 中 文 WordNet 为 与 其 对 应 的 由 南阳 理工 大 学 建立 的 汉语 
- 开放 词 网 (Chinese Open Wordnet)"”， 这 两 者 是 对 齐 的 ， 本 文 对 
etinm WordNet 的 名 词 同 义 集 进行 编码 后 , 以 四 元 组 的 形式 进行 存储 。 
四 元 组 形式 为 {同义词 集 ， 英 语词 汇 ， 中 文 词汇 ， 中 间 指 纹 }。 
图 7 是 部 分 中 间 指纹 编码 的 结果 。 
在 图 7 中 ，Synset( “message.n.01 ”) 代 表 同 义 词 集 ， 
message.n.02 是 单词 message 作为 名 词 的 第 二 个 义 项 ， 其 随后 
一 行为 这 个 义 项 中 包含 的 英语 词汇 ， 在 接着 一 行为 这 个 义 项 包 
含 的 中 文 词汇 ， 如 果 没 有 ， 则 为 None， 最 后 一 行为 此 同义词 集 
经 过 中 间 指 纹 编码 算法 之 后 对 应 的 中 间 指 纹 ， 为 117 位 二 进 制 
为 了 合并 连续 的 到 窍 句 子 ， 本 文 使 用 以 下 方法 : 数 。 从 图 7 可 以 看 出 ， 每 个 同义词 集 代表 一 个 义 项 ， 这 个 义 项 
a) 通 过 把 源 文 本 按照 属性 source_reference 分 类 ， 从 而 进行 中 可 能 包含 多 个 英语 词汇 和 多 个 中 文 词汇 ， 也 可 能 没有 相对 应 
; 的 中 文 词汇 ， 通 过 计算 85% 都 有 对 应 的 词汇 ， 因 此 对 后 续 的 实 
b) 对 于 a) 中 得 到 的 每 一 个 集合 , 将 它们 按照 属性 this offset — 验 基本 没有 影响 。 
的 大 小 按照 升序 排序 ; 
o) 把 最 多 相距 一 个 预定 义 的 字符 数 的 相 邻 的 检测 连接 起 来 ; 
d) 对 于 每 一 个 到 鹤 段落 只 报告 一 个 到 窍 检测 结果 (选取 源 


了 


feature n 


图 5 G3JfPZ BU RUSO ARE 


图 
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4.2 
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图 7 


潜在 剩 窃 文档 的 检索 
通过 语义 消 上 政和 指纹 选取 之 后 ， 
应 的 指纹 ， 然 后 利用 


Dice 系数 计算 上 


部 分 中 间 指 纹 编码 的 结果 


表 1 是 部 分 中 英文 文本 相似 度 计算 结果 。 


表 1 中 英文 文本 相似 度 计 算 部 分 结果 


00000000000000000000000000 


已 经 形成 中 英文 文本 所 对 
英文 文本 之 间 的 相似 度 。 


中 文 文本 ”英文 文本 相似 度 
zh00001 en00001 0.8185642135454 
zh00001 en00002 0.7802139037433 
zh00001 en00003 0.7606060606061 
zh00001 en00004 0.5961538461538 
zh00001 en00005 0.659763313609 
zh00001 en00006 0.306896551724 
zh00001 en00007 0.651515151515 
zh00001 en00008 0.4131578947368 
zh00001 en00009 0.2920245398773 
zh00001 en00010 0.104347826087 
zh00001 en00011 0.154457785588 
zh00001 en00012 0.3283018867925 
zh00001 en00013 0.104166666667 
zh00001 en00014 0.5430107526882 
zh00001 en00015 0.44882478962 


从 表 1 可 以 看 出 “zh00001.txt” 和 “en00001.txt” 的 相似 度 


最 高 。 通 过 人 工分 析 这 两 个 文本 ， 发 现 “zh00001.txt ”和 
“en00001.txt” 确 实 互 为 译文 ， 这 大 体 上 验证 了 中 英文 文本 相 


似 度 计 算 的 合 到 


了 准确 率 (P)、 


rid 
H 


上 述 公式 是 在 给 定 的 相似 


里 性 o 


召回 率 (R) 和 F- 测 度 值 来 评测 。 


率 的 计算 公式 如 下 所 示 : 


x100% 
P 


E x100% 
N 


检测 为 相似 实际 也 是 相似 的 文本 数量 


不 相似 的 文本 数量 ，7 为 检测 为 不 机 


这 上 


里 的 准确 率 和 


同时 为 了 更 好 的 评价 此 算法 的 优 劣 ， 采 /) 


度 的 阐 值 的 情况 下 。 其 中 ，7 为 
i. p 为 预测 为 相似 实际 上 
目 似 但 实际 相似 的 文本 的 数 


E. 
FR 


E o F- W 
五 一 测度 值 = 


MN 


在 不 同 相 似 度 阔 值 下 的 平均 值 。 


FERATI 


E) m a oa XNA HANAR 
度 值 是 精度 和 召回 率 的 综合 ， 
2PR/1(P+R)。 图 8 是 准确 率 、 召 回 率 和 下 -测度 值 


0 


01 02 03 04 05 06 07 08 09 
Lii 


一 上 一 精度 ”一 可 一 召回 率 一-F- 测 度 值 


1 


从 图 8 可 
相似 度 
0.71 时 ，F- 测 
性 。 又 
考虑 上 下 


文 ， 


于 此 计算 过 程 只 


率 和 下 -测度 值 在 不 同 相似 度 阔 值 下 的 平均 值 


以 看 出 在 相似 度 阔 值 取 0.71 时 ,F- 测 度 值 为 最 佳 ， 


取 0.71 也 综合 考虑 了 精度 和 召回 率 。 在 相似 度 闵 值 取 


度 值 为 0.7214， 说 明了 中 英文 相 
取 了 名 词 作为 特 和 
这 对 较 长 的 文本 来 说 是 可 行 的 ， 


落 和 句子 ， 
4.3 SimWin 

在 详细 
翻译 成 英文 ， 


是 英语 )， 然 后 利 ) 


田 的 比较 ， 


该 算法 


的 精 
算法 实验 分 析 


度 就 下 降 了 , 所 以 需要 后 续 


似 度 计算 的 有 效 


FE 序 列 ， 而 且 需 要 


但 对 于 较 短 的 段 
的 详 旨 


分 析 。 


分 析 过 程 中 ， 需 要 先 把 可 疑 文本 ， 也 就 是 中 文 文本 


需要 通过 Google API 翻译 成 源 文档 的 语言 (这 里 


1582 


间 的 相似 度 进行 详细 


本 文 的 指纹 融合 算法 是 在 句子 的 


分 析 。 为 了 更 加 
基础 上 进行 的 ， 


以 句号 作为 名 


句子 长 度 在 3 


分 割 的 标志 。 本 文 从 列 窃 集中 
0 个 单词 的 句子 作为 测试 集 。 计 


^ IE] B 
和 召回 率 计算 
的 关系 图 。 


值 下 的 ; 


储 确 率 和 召回 率 ， 随 后 把 每 个 阔 


WI 50 个 平均 
算出 每 个 句子 在 
值 的 平均 准确 率 


出 来 。 


图 9 是 SimHash 算法 阔 值 和 精度 


LH 


、 召 回 率 


一 上 一 精度 ”一 加 一 召回 3 


图 9 


SimHash 算法 阔 值 、 精 度 、 召 蕊 


Es 


关系 


从 图 
个 平衡 点 ， 因 


9 中 可 以 看 出 当 阀 值 为 10 W, RAMH E 


VEA SC BUB SE Jy 10. 


本 文 将 


种 算法 融合 到 一 起 来 衡量 句子 之 


率 达 到 一 


闻 的 相似 度 ， 但 


是 公式 中 的 w 


需要 根据 实验 来 确定 ， 因 为 在 不 


在 实验 


吉 果 最 优 的 情况 下 ， 
SimHash, Winnowing 采用 的 测试 集 一 样 ， 


a 的 取 值 不 一 样 。 
实验 选 


司 的 实验 环境 下 
本 次 实验 和 
i FF- 测 度 值 
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来 确定 o 的 最 优 值 和 相似 度 阔 值 。 


和 下 -测度 值 的 关系 图 。 


图 10 是 wx 值 、 相 似 度 阔 值 


一 全 3-0 

-30.1 
7ie73-02 
Hi-2-03 
a04 
79-32-05 


-一 3-1 


从 图 


图 10 Q 值 、 相 似 度 阔 值 以 及 下 -测度 值 的 关系 图 


10 可 以 看 出 当 w -=0.3 时 ，F- 测 度 值 要 普遍 高 于 其 他 
1H. fE 4 20.3 时， 相似 度 姜 值 取 0.4 时 ，F- 测 度 值 最 高 。 
表 2 是 其 中 一 个 句子 和 抽取 的 另外 十 个 句子 的 SimHash 汉 明 距离 和 相 


x] 刚 ， 等 : 一 种 基于 指 Ghina iva (ER M 


目 SimHash 算 法 
il Winnowing 8i: 
口 指纹 融合 算法 


精度 召回 率 E 
图 11 三 种 句子 相似 度 计算 方法 结果 对 比 图 
从 图 11 可 以 看 出 本 文 所 提出 的 指纹 融合 算法 在 准确 率 和 


F- 测 度 值 之 间 要 好 于 SimHash 算法 和 Winnowing 算法 , 召回 率 


En 


似 度 、Winnowing 相似 度 以 及 融合 相似 度 ( wx = 0.3 )。 


表 2 句子 相似 度 计算 部 分 结果 

汉 明 SimHash Winnowing 融合 
英文 句子 

距离 。 相似 度 相似 度 相似 度 
sen00005 11 0.65625 0.443181 0.507103 
sen00011 18 0.4375 0.050847 0.166842 
sen00020 12 0.625 0.404494 0.470645 
sen00055 11 0.65625 0.044642 0.241517 
sen00075 15 0.53125 0.025423 0.177171 
sen00086 5 0.84375 0.397849 0.531619 
sen00107 18 0.4375 0.050847 0.166842 
sen00108 13 0.59375 0.02309 0.194288 
sen00129 10 0.6875 0.156241 0.315618 
sen00310 6 0.8125 0.55 0.62875 


lE 


从 表 2 可 以 看 出 ， 


两 个 可 能 旭 窃 的 句子 ， 而 在 Winnowing 算法 中 ， 


汉 明 距离 以 10 WARE, KENE 


以 相似 度 0.35 


译文 ， 而 一 般 的 跨 语言 标 


作为 阔 值 的 话 ， 检 测 到 四 个 简 窃 的 句子 ， 实 际 可 疑 句 子 和 英文 
句子 “sen00005”“sen00020”“sen00086”“sen00310” 互 为 
1 窃 都 是 翻译 而 来 的 。 所 以 可 以 说 可 疑 
句子 和 这 四 个 句子 互 为 列 穷 句子 。 从 表 中 可 以 看 出 Winnowing 


算法 的 精度 要 高 于 SimHash 算法 ， 但 是 仔细 分 析 这 十 个 句子 ， 


发 现在 Winnowing 算法 中 ， 
不 利于 旨 窃 检测 ， 而 经 过 
FIDEM 


AAE RER 0.35 . FERE AAE E 0.4 的 精度 、 召 


F- 测 度 值 的 对 比 图 。 


某 些 稍微 类 似 的 计算 相似 度 太 低 
融合 之 后 就 好 多 了 ， 


能 更 好 的 应 用 于 


图 11 是 SimHash HAA BE 10, Winnowing 算法 在 相 


ZR 


本 和 Winnowing 算法 持平 ， 因 此 文本 提 


出 的 指纹 融合 算法 可 


认为 是 有 效 的 。 


较 了 


BELT. HE 
x, 


在 文献 [11] 中 Alberto 等 人 在 同样 的 实验 环境 和 i 
CL-ASA、CL-CNG 和 T+MA 三 种 方法 的 精度 和 召 


Hu 


结果 证 明 三 种 方法 中 THMA 的 效果 最 好 , 即 机 器 翻译 加 单 语言 


虽 窃 分 析 效 果 最 佳 。 其 中 机 器 翻译 使 用 的 是 Google API， 翻 译 
成 同 种 语言 之 后 ， 使 用 TF-IDF 值 来 标记 文本 术语 的 权重 ， 在 
词 袋 模型 上 使 


余弦 值 来 比较 文本 。 这 些 实验 都 是 在 英语 和 德 


语 以 及 西班牙 语 之 间 进 行 的 ， 很 少 有 以 中 文 作为 跨 语言 旭 窃 中 


的 一 


种 语言 来 对 所 提出 的 方法 进行 验证 和 评价 的 。 本 文 分 别 对 


T+MA 方法 、CL-ASA 方法 和 基于 指纹 融合 的 跨 语 言 旭 窃 检测 


方法 


进行 了 对 比分 析 。 图 12 是 这 三 种 方法 的 精度 和 召回 率 结 
果 对 比 图 。 
1 
口 基于 指纹 融合 的 跨 语言 
BARR 
BIT«MA 
EICL-ASA 
精度 召回 率 
图 12 “三 种 方法 惠 窃 检测 结果 对 比 图 


图 12 可 以 看 出 在 本 文 的 实验 环境 下 ， 不 管 是 精度 还 是 召 


H 


率 都 要 高 于 其 他 两 种 方法 , 精度 达到 0.87 , 召回 率 达 到 0.78. 


这 验证 了 本 文 所 提出 的 基于 指纹 融合 的 跨 语言 旭 穷 检测 技术 的 


有 效 性 。 


LH 


率 、 


因此 本 文 
是 三 种 方法 的 在 不 同 数 量 科 窃 集 上 所 需 的 时 间 对 比 图 。 


同时 由 于 实验 都 在 使 用 指纹 ， 而 指纹 的 优点 在 于 效率 高 ， 
岂 对 不 同 大 小 的 科 穷 集 对 比 了 检测 所 需 的 时 间 。 图 13 
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图 13 三 种 方法 运行 时 间 对 比 图 
从 图 13 可 以 明显 看 出 在 文本 数量 较 小 时 本 文 的 方法 和 
T+MA 的 方法 的 时 间 没 太 大 差别 ， 但 当 文本 增 大 时 ， 本 文 方法 


所 用 的 时 间 明 显 小 于 其 
译 模型 后 再 进行 相似 度 
于 在 文本 相似 度 计算 
取 也 是 在 其 基础 上 进 


— 


他 两 种 。CL-ASA 


的 计算 ， 所 以 开 


了 的 ， 所 以 效率 大 大 提升 ， 而 且 由 于 是 基 


于 是 先生 成 统计 划 
始 的 时 间 会 比较 短 。 
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的 算法 也 是 对 这 个 问题 进行 解决 的 一 种 方案 。 但 是 ， 
因素 的 限制 ， 本 文 所 给 出 的 算法 中 仍 有 一 些 问题 值得 人 们 来 进 


了 完善 。 第 一 是 各 


^. 
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检测 结果 ， 并 通过 实验 验证 了 该 方法 的 有 效 性 


o 


跨 语言 璋 窍 检测 是 自然 语言 处 理 中 的 难点 之 一 ， 本 文 给 出 
于 客观 


H 


的 WordNet 中 收录 的 词语 并 不 完全 ， 检 测 


时 仍 会 遇 到 未 登录 词 。 本 文 所 采用 的 处 理 方式 是 将 这 些 词 语 直 


接 的 忽略 掉 。 然 而 这 些 被 忽 


各 的 词语 是 否 会 对 结果 有 影响 则 需 


要 进一步 的 研究 。 第 二 则 是 由 于 在 WordNet 当中 名 词 的 结构 最 
为 明显 ， 所 以 本 文 算法 只 是 抽取 了 文章 中 的 名 词 进行 检测 ， 从 
而 忽略 了 其 他 词性 的 词语 对 于 文章 的 重要 作用 ， 而 引入 了 其 他 


词语 后 编码 问题 也 将 更 加 的 复杂 。 对 于 较 长 的 段落 来 说 是 合适 
和 高 效 的 ， 但 是 对 于 句子 的 相似 度 则 不 适用 ， 在 句 
要 经 过 翻译 ， 而 具体 的 可 将 疑 文 档 翻 译 成 源 文档 和 将 源 文档 翻 


" HN 
NII 
Bi 
ES 


人 对 采用 的 是 位 运算 ， 后 续 的 消 攻 和 指纹 选 


译 成 可 疑 文档 这 两 个 翻译 方向 是 否 会 对 结果 造成 影响 ， 还 需要 


于 语义 的 ， 所 以 精度 也 不 会 下 降 。 而 基于 指纹 融合 的 算法 把 两 


种 指纹 算法 融合 到 一 起 
5 ”结束 语 


随 着 互联 网 的 发 展 


AH 


， 提 高 了 精度 和 


4H [n 
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象 越 来 越 严重 ， 而 单 语言 列 窃 技术 的 成 熟 ， 促 使 一 些 人 开始 进 
语言 抄袭 机 穷 由 于 存在 语言 上 的 不 一 致 
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复杂 很 多 。 本 文 针对 此 
窃 检 测 方法 。 本 文 主要 


问题 提出 一 种 基 


完成 了 以 下 工作 : 


于 指纹 融合 的 跨 语 言 惠 


a) DAT Y ES A ADE H 


TE A AD P RC AER AAS E A D BUT 


段 国内 外 所 用 的 主要 方 


前 理论 和 方法 的 不 足 ， 提 出 在 WordNet 上 建立 中 间 指 纹 ， 运 用 


的 和 意义 ， 详细 描述 


法 和 研究 现状 ， 


指纹 技术 来 进行 跨 语言 


b) 分 析 了 WordNet 的 结构 ， 尤 其 是 关于 名 词 同义词 集 的 


文本 相似 度 计算 


树 型 结构 ， 在 深入 研究 


其 树 型 结构 的 基 


AGES VS T OS ar UI 


o 


础 上 ， 本 文 给 出 ] 


基于 
m 


其 树 型 结构 的 中 间 指 纹 编码 算法 ， 在 中 间 指 纹 编码 算法 中 子 节 


点 以 其 父 节 点 为 前 绥 ， 
数字 形式 表现 出 来 ， 跨 


c) 本 文 重点 研究 了 基于 中 间 


首先 分 析 了 目前 的 文本 
文 的 预 处 理 技 术 ， 包 括 
进行 语义 消 歧 ， 确 定 特 
语义 频率 进行 指纹 提取 
的 指纹 ， 从 而 形成 文本 


这 种 方式 把 语义 
越 了 语言 的 障碍 


预 处 理 技术 ， 在 


体 以 二 进 制 


宽泛 与 


o 


指纹 的 语义 消 歧 和 指纹 选取 。 


此 基础 上 选用 适合 于 本 


分 词 、 词 性 标注 
征 项 在 上 下 文中 
工作 ， 过 滤 掉 一 


等 。 然 后 基于 中 间 指 纹 


各 自 对 应 的 指纹 


d) 本 文 重点 研究 J 


基于 指纹 融合 的 简 窃 检测 方法 。 


的 E 义 项 ， 接着 基于 
些 过 于 宽泛 的 词 所 对 应 
过 基 


通 
于 中 间 指 纹 的 跨 语言 文本 段落 相似 搜索 检索 出 潜在 得 窍 文档 集 ， 
Haus SU ET SUIS EE LR 
分 析 SimHash 算法 和 Winnowing 算法 之 后 , 在 


然后 运用 
纹 融 合 是 在 详细 


详细 分 析 09。 指 


cr 


Xt 


步 的 研究 。 
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